The input and output of most text generation tasks can be transformed to two sequences of tokens and they can be modeled using sequence-to-sequence learning modeling tools such as Transformers. These models are usually trained by maximizing the likelihood the output text sequence and assumes the input sequence and all gold preceding tokens are given during training, while during inference the model suffers from the exposure bias problem (i.e., it only has access to its previously predicted tokens rather gold tokens during beam search). In this paper, we propose MoCa ({\bf Mo}mentum {\bf Ca}libration) for text generation. MoCa is an online method that dynamically generates slowly evolving (but consistent) samples using a momentum moving average generator with beam search and MoCa learns to align its model scores of these samples with their actual qualities. Experiments on four text generation datasets (i.e., CNN/DailyMail, XSum, SAMSum and Gigaword) show MoCa consistently improves strong pre-trained transformers using vanilla fine-tuning and we achieve the state-of-the-art results on CNN/DailyMail and SAMSum datasets.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
基于文本的人检索旨在根据文本描述找到查询人员。关键是学习视觉文本模式之间的常见潜在空间映射。为了实现这一目标,现有的作品采用细分来获得明确的跨模式对齐方式或利用注意力来探索显着对准。这些方法有两个缺点:1)标记交叉模式比对很耗时。 2)注意方法可以探索显着的跨模式对齐,但可能会忽略一些微妙而有价值的对。为了缓解这些问题,我们为基于文本的人检索引入了一个隐式视觉文本(IVT)框架。与以前的模型不同,IVT利用单个网络来学习两种模式的表示形式,这有助于视觉文本相互作用。为了探索细粒的对准,我们进一步提出了两个隐式语义比对范式:多级比对(MLA)和双向掩码建模(BMM)。 MLA模块在句子,短语和单词级别上探索了更精细的匹配,而BMM模块旨在挖掘视觉和文本模态之间的\ textbf {更多}语义对齐。进行了广泛的实验,以评估公共数据集中提出的IVT,即Cuhk-Pedes,RSTPREID和ICFG-PEDES。即使没有明确的身体部位对准,我们的方法仍然可以达到最先进的表现。代码可在以下网址获得:https://github.com/tencentyouturesearch/personretrieval-ivt。
translated by 谷歌翻译
时间一致性是视频深度估计的主要挑战。以前的作品基于额外的光流或相机姿势,这是耗时的。相比之下,我们获得了较少信息的一致性。由于固有的视频存在着沉重的时间冗余,因此可以从附近的框架中恢复缺失的框架。受此启发的启发,我们提出了框架屏蔽网络(FMNET),这是一种空间 - 速度变压器网络,可根据其相邻框架预测蒙版框架的深度。通过重建掩盖的时间特征,FMNET可以学习固有的框架间相关性,从而导致一致性。与先前的艺术相比,实验结果表明,我们的方法可以达到可比的空间准确性和更高的时间一致性,而没有任何其他信息。我们的工作为一致的视频深度估计提供了新的视角。
translated by 谷歌翻译
在许多计算机视觉任务(包括图像识别和对象检测)中,成功地使用了变压器结构成功使用的自我发挥机制。尽管激增,但使用变压器来立体声匹配问题仍然相对尚未探索。在本文中,我们全面研究了变压器在立体声匹配的问题上的使用,尤其是对于腹腔镜视频,并提出了一个新的混合型直立立体声匹配框架(Hybridstereonet),将CNN的最佳和变压器结合在统一的设计中。具体而言,我们研究了几种方法,通过分析设计的损失格局和内域/跨域准确性,将变压器引入体积立体声匹配管道。我们的分析表明,在使用CNN进行成本聚合的同时,使用变压器进行功能表示学习,将导致比其他选项更快地收敛,更高的准确性和更好的概括。我们在SceneFlow上进行的广泛实验,Scread2019和DVPN数据集证明了Hybridstereonet的出色性能。
translated by 谷歌翻译
关于多模式情感分析的现有研究在很大程度上依赖文本方式,不可避免地会引起文本单词和情感标签之间的虚假相关性。这极大地阻碍了模型的概括能力。为了解决这个问题,我们定义了分发(OOD)多模式分析的任务。该任务旨在估计和减轻文本方式对强大概括的不良影响。为此,我们接受了因果推断,该因果通过因果图检查了因果关系。从图中,我们发现虚假相关性归因于文本模式对模型预测的直接影响,而间接相关性通过考虑多模式语义来更可靠。受此启发的启发,我们设计了一个模型不足的反事实框架,用于多模式情感分析,该框架通过额外的文本模型捕获文本模式的直接效果,并通过多模型估算间接模型。在推断期间,我们首先通过反事实推断估算直接效应,然后从所有模式的总效应中减去它以获得可靠预测的间接效应。广泛的实验显示了我们提出的框架的卓越有效性和概括能力。
translated by 谷歌翻译
我们建议探索一个称为视听分割(AVS)的新问题,其中的目标是输出在图像帧时产生声音的对象的像素级映射。为了促进这项研究,我们构建了第一个视频分割基准(AVSBENCH),为声音视频中的声音对象提供像素的注释。使用此基准测试了两个设置:1)具有单个声源的半监督音频分割和2)完全监督的音频段段,并带有多个声源。为了解决AVS问题,我们提出了一种新颖的方法,该方法使用时间像素的视听相互作用模块注入音频语义作为视觉分割过程的指导。我们还设计正规化损失,以鼓励训练期间的视听映射。 AVSBench上的定量和定性实验将我们的方法与相关任务中的几种现有方法进行了比较,这表明所提出的方法有望在音频和像素视觉语义之间建立桥梁。代码可从https://github.com/opennlplab/avsbench获得。
translated by 谷歌翻译
视觉变压器在众多计算机视觉任务上表现出了巨大的成功。然而,由于计算复杂性和记忆足迹是二次的,因此其中心分量(软磁性注意力)禁止视觉变压器扩展到高分辨率图像。尽管在自然语言处理(NLP)任务中引入了线性注意以减轻类似问题,但直接将现有的线性注意力应用于视觉变压器可能不会导致令人满意的结果。我们研究了这个问题,发现与NLP任务相比,计算机视觉任务更多地关注本地信息。基于这一观察结果,我们提出了附近的关注,该关注引入了具有线性复杂性的视觉变压器的局部性偏见。具体而言,对于每个图像补丁,我们根据其相邻贴片测量的2D曼哈顿距离调整了注意力重量。在这种情况下,相邻的补丁比遥远的补丁会受到更大的关注。此外,由于我们的附近注意力要求令牌长度比特征维度大得多,以显示其效率优势,因此我们进一步提出了一个新的附近视觉变压器(VVT)结构,以减少特征维度而不脱离准确性。我们在CIFAR100,ImagEnet1k和ADE20K数据集上进行了广泛的实验,以验证我们方法的有效性。当输入分辨率增加时,与以前的基于变压器和基于卷积的网络相比,GFLOP的增长率较慢。特别是,我们的方法达到了最新的图像分类精度,其参数比以前的方法少50%。
translated by 谷歌翻译
目的:动脉自旋标记(ASL)灌注成像表示脑血流(CBF)的直接和绝对测量。动脉转运时间(ATT)是一个相关的生理参数,反映了标记的旋转到达感兴趣的大脑区域的持续时间。多个标签后延迟(PLD)可以提供CBF和ATT的强大度量,从而可以根据ATT优化区域CBF建模。延长的获取时间可以潜在地降低CBF和ATT估计的质量和准确性。我们提出了一个新型网络,以显着减少具有较高信噪比(SNR)的PLD数量。方法:对一个PLD和两个PLD SEPA-列表进行了CBF和ATT估计。对每个模型进行独立训练,以学习从灌注加权图像(PWI)到CBF和ATT图像的非线性转换。结果:One-PLD和两个PLD模型在CBF上的视觉上优于常规方法,而两PLD模型在ATT估计上显示出更准确的结构。所提出的方法将PLD的数量从ATT上的6个降低到2,甚至在CBF上的单个PLD中,而无需牺牲SNR。结论:使用高质量的深度学习生成CBF和ATT地图可行。
translated by 谷歌翻译
这项工作研究了彩色的任务,其中目的是将聋人(听力态度)社区转录到聋人的自然口语句子,以命令手语界面。以配对句子 - 光泽数据培训的先前序列到序列语言模型通常无法捕获两个不同语言之间的丰富连接,从而导致不满意的转录。我们观察到,尽管语法不同,但有效地简化了聋人通信的句子,同时与句子分享大部分词汇。这使我们能够通过执行编辑动作的集合来实现有乐化性的。单词添加,删除和复制,称为编辑程序,在他们的自然语言同行上。具体而言,我们设计了一种新的神经代理,了解综合和执行编辑程序,在句子上下文和部分编辑结果上调节的编辑程序。经过培训的代理以模仿最小的编辑程序,同时通过策略梯度更广泛地探索节目空间,以优化序列明智的转录质量。结果表明,我们的方法优于先前的光泽模型。
translated by 谷歌翻译